Оставайтесь на линии: как создать идеального голосового помощника

351

2021-06-25

Пользователям с каждым днем становится все сложнее отличить голосовых роботов от реальных людей: многие спорят с ботами, пытаются научить их правильно выполнять свою работу и даже заигрывают с ними – все как у людей. Как же создается тонкая душевная организация этих невидимых помощников, способная запутать даже самого продвинутого пользователя – предлагаем разобраться вместе.

Из чего состоит голосовой бот?

Развитие искусственного интеллекта можно сравнить с процессом познания окружающего мира человеком. Так, с момента рождения мы начинаем воспринимать визуальные, аудиальные и другие образы так же, как бот воспринимает информацию через свои «уши» или технологии распознавания речи. Следующим шагом становится изучение слов и самостоятельное формирование фраз и предложений для общения. Бот на лету схватывает все, чему его учат. За это отвечает его «мозг» и дизайнеры голосовых интерфейсов, которые составляют словари для робота. Чтобы озвучить сформированные мысли, человек использует язык, а бот – синтез речи.

Распознавание речи

Одним из основных этапов на пути к полноценной речи бота является распознавание речи. Это многоуровневый процесс восстановления сказанного по акустическим сигналам. Система структурирует полученный результат в слова, фразы и отдельные предложения и преобразует в текстовый формат.

Первый этап – анализ сигнала. Компьютер отправляет полученный запрос на сервер, где он проходит очистку от помех и посторонних шумов. После чего запись сжимается и делится на фрагменты, длина каждого - 25 миллисекунд. Полученные фрагменты пропускаются через акустическую модель – карту голоса по отношению к напечатанным словам, которая создается путем сравнения произнесенного звука с текстом сказанных слов. Эта модель и определяет, какие именно звуки были произнесены, для последующего распознавания.

Второй этап – это распознавание сигнала. В акустической модели хранятся эталонные звуки, с которыми и сравниваются буквы, слоги и слова. С помощью машинного обучения система подбирает варианты произнесенных слов и их контекст, а также собирает из звуков предполагаемые слова.

Заключительным этапом распознавания является преобразование сигнала в текст. На данном этапе система определяет верный порядок слов, основываясь на языковые модели, и подбирает нераспознанные слова по смыслу. Эта информация поступает в декодер, где аудиоданные преобразуются в текст.

Проработанный сценарий

Насколько развит будет ваш бот, зависит лишь от запросов пользователей и опыта дизайнеров голосовых интерфейсов, которые разрабатывают возможные варианты развития диалога. Отвечая на тот или иной вопрос, робот задействует свой «мозг» или центр принятия решений, который работает в соответствии с заданными сценариями. Так, сначала разрабатываются ветки диалога. Например, если цель бота – верифицировать ответившего, он должен задать вопрос, ответом на который будет либо согласие, либо отрицание. Далее в ветки положительного и отрицательного ответа добавляются всевозможные формы согласия и отказа: да, угу, конечно, еще бы/ нет, не-а, не, ни за что и т.д. Здесь же дизайнеры голосовых интерфейсов продумывают варианты диалога на случай, если ответивший гневно просит больше не звонить ему или если бот набрал в неудобное время.

Надо отметить одну важную делать. Бизнесу эффективнее делать «тупого» бота: выбор понижает эффективность коммуникации. К примеру, как только мы говорим клиенту «если хотите изменить время или адрес доставки, назовите удобную дату и новый адрес», он начинает размышлять, удобна ли ему доставка в эту дату или лучше поменять данные. В итоге процесс затягивается на неопределенный срок.

Более того, чтобы создать «умного» бота, то есть обучить нейросеть и «закрыть» хотя бы одну ветку диалога, потребуется большое количество референсного материала – диалоги пользователей с живыми операторами – и масса времени. Как правило, предоставляемой информации недостаточно для качественного обучения нейросети.

Синтез речи

Технологии синтеза речи – неотъемлемая и, пожалуй, самая важная с пользовательской стороны часть голосового робота. Благодаря синтезу речи можно озвучить любой текст голосом, максимально приближенным к естественному. Чтобы сделать синтезированную речь «живой», необходимо отработать ее тембр, плавность звучания, расстановку ударений и пауз, а также интонацию.

Сам процесс синтеза речи происходит в три этапа. Сначала система преобразовывает распознанный ранее текст в удобный для чтения формат – на данном этапе числа записываются словами, а сокращения расшифровываются. Также в рамках первого этапа алгоритм разделяет текст на отдельные предложения и фразы для дальнейшего чтения с правильной интонацией.

На следующем этапе алгоритм выполняет фонетическую транскрипцию. Чтобы понять, как правильно произносить слова и где ставить ударения, система использует встроенные словари. Если компьютер не находит ответа в словаре, он транскрибирует слова самостоятельно, опираясь на академические правила. Если и это не помогает, то используются записи дикторов, которые заранее записываются реальными людьми и добавляются в «речевую базу». После этого система воссоздает подходящую интонацию с помощью данных о фразах и предложениях.

На завершающем этапе система озвучивает транскрибированный текст, используя акустическую модель. Чтобы озвучить текст, робот использует генератор звуковых волн, в который загружаются все характеристики о частотных фразах, полученные от акустической модели.

3 главные ошибки новичков

Плохо проработанные словари

Поверхностная работа со словарями может запутать робота и вызвать негативную реакцию у пользователя, если последний слышит ответы невпопад. Поэтому, работая над словарями, убедитесь, что в ветку положительных ответов вы добавили не только, например, «да», но и «конечно», «удобно» и даже «ну».

Непродуманный сценарий

Робота нужно всему учить, особенно это касается вежливости. Так, при проработке сценариев есть очевидные варианты ответов: да/нет/перезвоните. Однако, порой робот не может распознать ответ пользователя из-за сильных фоновых шумов, тихого голоса и других факторов. Новички часто в этом случае просто обрывают звонок, а бот, соответственно, бросает трубку, не попрощавшись с пользователем и не выполнив цель звонка. Поэтому всегда ставьте себя на место ответившего: лучше переспросить, чем улыбнуться, не разобрав вопроса, правда?

Отключенная клавиатура

Если цель вашего звонка – проведение опроса, обязательно позаботьтесь о том, чтобы пользователь мог ставить оценку нажатием клавиши. Несмотря на развитость и повсеместность голосовых технологий, многим до сих пор привычнее кликнуть, чем произнести ответ вслух. Более того, без возможности ввода с клавиатуры обзвон будет лишь наполовину полезен: при прослушивании вы будете слышать звук нажатой клавиши, но не узнаете результата.

Голосовые боты совершенствуются с каждым годом, а значит в скором времени коммуникация станет намного более эффективной и комфортной для пользователей. В будущем благодаря эффективным и развивающимся системам разработки боты смогут чувствовать эмоциональный настрой человека и с легкостью отвечать на темы, не прописанные в сценарии.

Материал подготовлен совместно с Voximplant

Компания Voximplant

0 0

Опубликовано: Мировое обозрение Источник

Лента новостей

Архив публикаций